Оптимизация моделей дистилляции знаний для языковых моделей
Аннотация:
Введение. Обсуждается проблема оптимизации больших нейронных сетей на примере языковых моделей. Размеры больших языковых моделей являются препятствием для их практического применения в условиях ограниченных объемов вычислительных ресурсов и памяти. Одним из развиваемых направлений сжатия моделей больших нейронных сетей служит дистилляция знаний — передача знаний от большой модели учителя к меньшей модели ученика без существенной потери точности результата. Известные в настоящее время методы дистилляции знаний имеют определенные недостатки: неточная передача знаний, долгий процесс обучения, накапливание ошибки в длинных последовательностях. Метод. Предлагаются методы, способствующие повышению качества дистилляции знаний применительно к языковым моделям: выборочное вмешательство учителя в процесс обучения ученика и низкоранговая адаптация. Первый подход основан на передаче токенов учителя при обучении ученика на слои нейронной сети, для которых достигается экспоненциально убывающий порог измерений расхождения между распределениями вероятностей учителя и ученика. Второй подход предлагает уменьшение количества параметров в нейронной сети путем замены полносвязных слоев на низкоранговые, что позволяет снизить риск переобучения и ускорить процесс обучения. Показаны ограничения каждого метода при работе с длинными последовательностями. Предложено комбинировать методы для получения усовершенствованной модели классической дистилляции знаний для длинных последовательностей. Основные результаты. Применение комбинированного подхода к дистилляции знаний на длинных последовательностях позволило значительно сжать результирующую модель с небольшой потерей качества, а также ощутимо снизить затрачиваемую память GPU и время вывода ответа. Обсуждение. Взаимодополняющие подходы к оптимизации процесса передачи знаний и сжатию моделей показали лучшие результаты, чем выборочное вмешательство учителя в процесс обучения ученика и низкоранговая адаптация по отдельности. Таким образом, качество ответов усовершенствованной модели классической дистилляции знаний на длинных последовательностях показало 97 % качества полной донастройки и 98 % качества метода низкоранговой адаптации по показателям ROGUE-L и Perplexity, при учете того, что количество обучаемых параметров снижается на 99 % по сравнению с полной донастройкой и на 49 % в сравнении с низкоранговой адаптацией. Кроме того, использование памяти GPU в сравнении с этими же методами уменьшается на 75 % и 30 % соответственно, а время вывода ответа на 30 %. Предложенная комбинация методов дистилляции знаний может найти применение в задачах с ограниченными вычислительными ресурсами.
Ключевые слова:
Постоянный URL
Статьи в номере
- Апохроматический объектив для изображающих спектральных систем видимого, ближнего и коротковолнового инфракрасного диапазонов спектра
- Применение эффекта перекрестной модуляции усиления в эрбиевом волокне для увеличения эффективной ширины спектра интеррогатора
- Нелинейное пропускание фторфосфатного стекла с квантовыми точками сульфидов и селенидов кадмия и свинца при воздействии фемтоcекундного лазерного излучения ближнего инфракрасного диапазона
- Методика оценки чувствительности к вибрации оптических компонентов, основанная на вейвлет-анализе вибрационно-модулированного излучения
- Характеризация плазменной смеси Ar:N2 с помощью оптической эмиссионной спектроскопии при магнетронном осаждении покрытия NbN
- Спектральный анализ сплавов Al-Ni при лазерном облучении: влияние энергии лазера на параметры плазмы
- Применение анаморфотной оптической системы и высокоскоростного линейного фотоприемника в инкрементном преобразователе перемещений открытого типа
- Исследование спектральных характеристик N-(2-(2-(2-азидоэтокси)этокси) этил)-4,6-ди(азиридин-1-ил)-1,3,5-триазин-2-амина с помощью методов теории функционала плотности
- Метод генерации анимации цифрового аватара с речевой и невербальной синхронизацией на основе бимодальных данных
- Применение машинного обучения для профилирования устройств Интернета вещей с целью обнаружения вредоносной активности
- Генерация шрифтов на основе анализа стиля и структуры символов с использованием диффузионных моделей
- Выявление аномалий в условиях ограниченности и неопределенности данных с использованием zero-shot и few-shot подходов
- Исследование влияния состязательных атак на классификацию и кластеризацию изображений на примере модели ResNet50
- Протокол пересечения множеств с сохранением конфиденциальности
- K-sparse энкодер для эффективного информационного поиска
- Метод сравнительного анализа временных серий наборов данных, заданных в виде множества строк, с использованием графов де Брейна
- Применение современных методов оценивания рисков информационной безопасности объекта критической информационной инфраструктуры
- Алгоритм взаимодействия человека с моделью индустриальной киберфизической системы посредством нейроинтерфейса
- Улучшенный протокол аутентификации беспилотных транспортных средств, использующий алгоритм Диффи–Хэллмана
- Имитационно-аналитическая модель надежности с возможной репликацией передач в реконфигурируемой многопутевой беспроводной сети
- Оценка точности позиционирования трамвая в кривых на основе данных карты и сегментированных изображений
- Построение оптимального плана дозаправок с использованием агрегированных сведений о значениях параметров маршрута из открытых источников
- Вейвлеты Эрмита–Гаусса: синтез дискретных форм и исследование свойств